9 research outputs found

    Extraction de relations d'hyperonymie à partir de Wikipédia

    Get PDF
    Ce travail contribue à montrer l'intérêt d'exploiter la structure des documents accessibles sur le Web pour enrichir des bases de connaissances sémantiques. En effet, ces bases de connaissances jouent un rôle clé dans de nombreuses applications du TAL, Web sémantique, recherche d'information, aide au diagnostic, etc. Dans ce contexte, nous nous sommes intéressés ici à l'identification des relations d'hyperonymie présentes dans les pages de désambiguïsation de Wikipédia. Un extracteur de relations d'hyperonymie dédié à ce type de page et basé sur des patrons lexico-syntaxiques a été conçu, développé et évalué. Les résultats obtenus indiquent une précision de 0.68 et un rappel de 0.75 pour les patrons que nous avons définis, et un taux d'enrichissement de 33% pour les deux ressources sémantiques BabelNet et DBPédia

    Extraction de relations : Exploiter des techniques complémentaires pour mieux s'adapter au type de texte

    Get PDF
    Extraire des relations d'hyperonymie à partir des textes est une des étapes clés de la construction automatique d'ontologies et du peuplement de bases de connaissances. Plusieurs types de méthodes (linguistiques, statistiques, combinées) ont été exploités par une variété de propositions dans la littérature. Les apports respectifs et la complémentarité de ces méthodes sont cependant encore mal identifiés pour optimiser leur combinaison. Dans cet article, nous nous intéressons à la complémentarité de deux méthodes de nature différente, l'une basée sur les patrons linguistiques, l'autre sur l'apprentissage supervisé, pour identifier la relation d'hyperonymie à travers différents modes d'expression. Nous avons appliqué ces méthodes à un sous-corpus de Wikipedia en français, composé des pages de désambiguïsation. Ce corpus se prête bien à la mise en oeuvre des deux approches retenues car ces textes sont particulièrement riches en relations d'hyperonymie, et contiennent à la fois des formulations rédigées et d'autres syntaxiquement pauvres. Nous avons comparé les résultats des deux méthodes prises indépendamment afin d'établir leurs performances respectives, et de les comparer avec le résultat des deux méthodes appliquées ensemble. Les meilleurs résultats obtenus correspondent à ce dernier cas de figure avec une F-mesure de 0.68. De plus, l'extracteur Wikipedia issu de ce travail permet d'enrichir la ressource sémantique DBPedia en français : 55% des relations identifiées par notre extracteur ne sont pas déjà présentes dans DBPedia

    Extraction de relations d'hyperonymie à partir de Wikipédia

    Get PDF
    National audienceCe travail contribue à montrer l'intérêt d'exploiter la structure des documents accessibles sur le Web pour enrichir des bases de connaissances sémantiques. En effet, ces bases de connaissances jouent un rôle clé dans de nombreuses applications du TAL, Web sémantique, recherche d'information, aide au diagnostic, etc. Dans ce contexte, nous nous sommes intéressés ici à l'identification des relations d'hyperonymie présentes dans les pages de désambiguïsation de Wikipédia. Un extracteur de relations d'hyperonymie dédié à ce type de page et basé sur des patrons lexico-syntaxiques a été conçu, développé et évalué. Les résultats obtenus indiquent une précision de 0.68 et un rappel de 0.75 pour les patrons que nous avons définis, et un taux d'enrichissement de 33% pour les deux ressources sémantiques BabelNet et DBPédia

    Semantic Web for BIBLIMOS

    No full text
    International audienceWe present the BIBLIMOS project, which aims to address the Western Saharan culture and history, by considering both local ancient Arabic manuscriptsand European colonial archives. We describe the project’s context and objectives before focusing on ancient Mauritanian manuscripts, the content of which covers many scientific fields. We assess the current state of such ancient manuscripts’ digital processing and we analyse what the semantic web can bring for their use by scholars, from North and South: the ability for applications to operate jointly on several distributed and heterogeneous sources of digitized manuscripts and other kinds of archives, to support collaborative reflection

    A Distant Learning Approach for Extracting Hypernym Relations from Wikipedia Disambiguation Pages

    Get PDF
    International audienceExtracting hypernym relations from text is one of the key steps in the automated construction and enrichment of semantic resources. The state of the art offers a large varierty of methods (linguistic, statistical, learning based, hybrid). This variety could be an answer to the need to process each corpus or text fragment according to its specificities (e.g. domain granularity, nature, language, or target semantic resource). Moreover, hypernym relation may take different linguistic forms. The aim of this paper is to study the behaviour of a supervised learning approach to extract hypernym relations whatever the way they are expressed, and to evaluate its ability to capture regularities from the corpus, without human intervention. We apply a distant supervised learning algorithm on a sub-set of Wikipedia in French made of disambiguation pages where we manually annotated hypernym relations. The learned model obtained a F-measure of 0.67, outperforming lexico-syntactic pattern matching used as baseline

    Extracting hypernym relations from Wikipedia disambiguation pages: comparing symbolic and machine learning approaches

    Get PDF
    International audienceExtracting hypernym relations from text is one of the key steps in the construction and enrichment of semantic resources. Several methods have been exploited in a variety of propositions in the literature. However, the strengths of each approach on a same corpus are still poorly identified in order to better take advantage of their complementarity. In this paper, we study how complementary two approaches of different nature are when identifying hypernym relations on a structured corpus containing both well-written text and syntactically poor formulations, together with a rich formatting. A symbolic approach based on lexico-syntactic patterns and a statistical approach using a supervised learning method are applied to a sub-corpus of Wikipedia in French, composed of disambiguation pages. These pages, particularly rich in hypernym relations, contain both kinks of formulations. We compared the results of each approach independently of each other and compared the performance when combining together their individual results. We obtain the best results in the latter case, with an F-measure of 0.75. In addition, 55% of the relations identified by our approach, with respect to a reference corpus, are not expressed in the French DBPedia and could be used to enrich this resource

    SEMPEDIA : Sémantisation à partir des documents semi-structurés - Enrichissement de DBPédia (Rapport sur les travaux de thèse d'Adel Ghamnia) Rapport de fin de contrat de la région Midi-Pyrénées Convention 620402C5266

    No full text
    Cette thèse s'inscrit dans le cadre d'un projet interdisciplinaire appelé SemPedia qui a fait l'objet d'un partenariat entre les équipes Melodi et ERSS de l'Institut de Recherche en Informatique de Toulouse (IRIT) et du laboratoire Cognition, Langue, Langage, Ergonomie (CLLE). L'objectif est de mettre en commun des compétences en informatique, linguistique et traitement automatique des langues pour le développement d'outils d'extraction de connaissances à partir de textes visant l'enrichissement du Web des données en français. Le Web des données permet la publication de données structurées pour constituer un réseau de connaissances à l'échelle du Web. Or, les contenus relatifs au français restent très insuffisants par rapport à leurs équivalents en anglais. Ainsi, la ressource DBPedia en français est 20 000 fois plus pauvre que la version anglaise de DBPedia. Ce rapport rend compte des méthodes mises au point dans le cadre du projet SemPedia pour la construction automatique de ressources sémantiques à grande échelle pour le français. Elles reposent sur le développement de plusieurs extracteurs de connaissances à partir du corpus Wikipedia, constitué de textes de nature encyclopédique particulièrement riches en informations. Cette ressource textuelle a été généralement exploitée par des techniques analysant seulement la partie la plus fortement structurée de la base (infoboxes, catégories, etc.), délaissant la majorité de l'information textuelle disponible. Le projet SemPediaa pour objectif d'évaluer les apports de méthodes qui visent à tirer parti de toutes les informations textuelles disponibles dans le corpus Wikipedia en combinant des approches variées d'extraction des connaissances, basées à la fois sur des règles linguistiques (patrons morpho-syntaxiques) et sur des processus d'apprentissage (supervision distante). Le projet s'est focalisé sur l'extraction de connaissances de nature taxonomique, qui constituent l'ossature principale des ressources sémantiques. Elles organisent les concepts sous forme de hiérarchies, selon une relation dite de spécialisation en intelligence artificielle, appelée hyperonymie en linguistique. L'extraction de relations à partir des textes a motivé de nombreux travaux, conduisant à un foisonnement de méthodes qui s'explique à la fois par la disparité des situations d'acquisition et par les évolutions technologiques. La thèse implémente plusieurs techniques complémentaires, afin d'évaluer les conditions optimales de leur utilisation, en fonction du type de ressources textuelles disponibles (plus ou moins normalisées et structurées) et de la nature de l'information textuelle mobilisée (contenu textuel standard, titres, énumérations, etc.). Ce rapport présente la problématique de la thèse, fait un bilan des travaux antérieurs sur cette question, et détaille les différents volets de la contribution en faisant varier plusieurs paramètres : la nature des textes (textes spécifiques ou ensemble du corpus Wikipedia), les caractéristiques de l'information textuelle (texte brut ou structuré), et les types de techniques mobilisés (approche par règles ou par apprentissage). Les chapitres relatifs à la contribution présentent et intègrent 4 des 5 publications réalisées dans le cadre du projet

    Extraction de relations : combiner les techniques pour s'adapter à la diversité du texte.

    No full text
    National audienceExtraire des relations d'hyperonymie à partir des textes est une des étapes clés de la construction automatique d'ontologies et du peuplement de bases de connaissances. Plusieurs types de méthodes (linguis-tiques, statistiques, combinées) ont été exploités par une variété de propositions dans la littérature. Les apports respectifs et la complémentarité de ces méthodes sont cependant encore mal identifiés pour optimiser leur com-binaison. Dans cet article, nous nous intéressons à la complémentarité de deux méthodes de nature différente, l'une basée sur les patrons linguistiques, l'autre sur l'apprentissage supervisé, pour identifier la relation d'hy-peronymie à travers différents modes d'expression. Nous avons appliqué ces méthodes à un sous-corpus de Wikipedia en français, composé des pages de désambiguïsation. Ce corpus se prête bien à la mise en oeuvre des deux approches retenues car ces textes sont particulièrement riches en relations d'hyperonymie, et contiennent à la fois des formulations rédigées et d'autres syntaxiquement pauvres. Nous avons comparé les résultats des deux méthodes prises indépendamment afin d'établir leurs performances respectives, avec le résultat des deux méthodes appliquées ensemble. Les meilleurs résultats obtenus correspondent à ce dernier cas de figure avec une F-mesure de 0.68. De plus, l'extracteur Wikipedia issu de ce travail permet d'enrichir la ressource séman-tique DBPedia en français : 55% des relations exprimées et identifiées par notre extracteur ne sont pas présentes dans DBPedia
    corecore